变压器负责自然语言处理的绝大多数近期进步。这些模型的大多数实际的自然语言处理应用程序通常通过转移学习启用。本文研究了用于微调用于微调的特异性标记提高了模型的结果。通过一系列实验,我们证明这种令牌化与词汇令牌的初始化和微调策略相结合,加速了转移并提高了微调模型的性能。我们称之为转让促进词汇转移的这个方面。
translated by 谷歌翻译